Học máy cổ điển

Chào mừng bạn đến với Bài học 6 của Khái niệm Trí tuệ nhân tạo (COMP5511). Buổi học này đóng vai trò như một cây cầu nối từ nền tảng lý thuyết sang các ứng dụng thực tiễn dựa trên thuật toán. Dù trí tuệ nhân tạo hiện đại thường nhấn mạnh vào Học sâu, Học máy cổ điểnvẫn là nền tảng vững chắc cho phân tích dữ liệu. Các thuật toán này cung cấp khả năng minh bạch và hiệu quả tính toán cao, khiến chúng trở thành lựa chọn ưu tiên cho dữ liệu có cấu trúc và các phân tích tiêu chuẩn ngành.

1. Học có giám sát

Thao tác này liên quan đến việc huấn luyện một mô hình trên một tập dữ liệu được gắn nhãn, nơi thuật toán học được mối quan hệ giữa các đặc trưng đầu vào và đầu ra mục tiêu cụ thể. Điều này giúp mô hình có thể dự đoán kết quảmột cách chính xác đối với dữ liệu mới và chưa từng thấy.

Cây quyết định: Mô hình chia dữ liệu thành các nhánh để đạt được một quyết định phân loại hoặc số học.
Máy vector hỗ trợ (SVMs): Thuật toán tìm ra siêu phẳng tối ưuđể tối đa hóa khoảng cách biên giữa các lớp dữ liệu khác nhau.

2. Học không giám sát

Các thuật toán này phân tích dữ liệu không được gắn nhãnđể phát hiện những mẫu, cấu trúc hoặc nhóm tiềm ẩn mà không cần hướng dẫn trước về đầu ra phải là gì. Các kỹ thuật chính bao gồm:

Phân cụm K-means: Nhóm các điểm dữ liệu thành K nhóm riêng biệt dựa trên sự tương tự về đặc trưng.
Phân tích thành phần chính (PCA): Một kỹ thuật giảm chiều dữ liệuđược dùng để đơn giản hóa dữ liệu phức tạp trong khi vẫn giữ lại phương sai cốt lõi.

Minh bạch so với Độ phức tạp

Một lợi thế đáng kể của học máy cổ điển là tính minh bạch. Khác với các mô hình học sâu dạng "hộp đen", các thuật toán như Cây quyết định cho phép con người theo dõi logic chính xác đằng sau một dự đoán, điều này cực kỳ quan trọng đối với các lĩnh vực mang tính rủi ro cao như y tế hay tài chính.

Quy trình triển khai Scikit-learn